当需要域专家来执行复杂的机器学习任务的数据注释时,减少注释工作对于缩短时间和费用至关重要。对于没有可用注释的情况,一种方法是利用特征空间的结构进行基于聚类的活动学习(AL)方法。但是,这些方法在很大程度上取决于样品在特征空间中的组织方式以及使用哪种距离度量。无监督的方法,例如对比性预测编码(CPC),可以潜在地用于学习有组织的特征空间,但是这些方法通常会产生高维特征,这对于估计数据密度可能具有挑战性。在本文中,我们将CPC和多个维度降低方法结合在一起,以搜索基于聚类的AL的功能实践。我们用于模拟语音情感识别系统部署的实验表明,该特征空间的本地和全球拓扑都可以成功用于AL,并且CPC可用于改善基于聚类的AL性能,而不是传统信号功能。此外,我们观察到,压缩数据维度并不损害AL性能,并且当注释数量不是很低时,2-D特征表示与高维表示相似。
translated by 谷歌翻译